GPT 5.4 AI快讯列表

时间	详情
2026-04-08 16:36	Meta 发布 Muse Spark：原生多模态与并行推理的突破—权威跑分与商业影响深度分析据 The Rundown AI 报道，Meta 推出其超智能实验室（由 Alexandr Wang 领导）的首款模型 Muse Spark，具备原生多模态、工具调用、可视化思维链及“沉思模式”，可编排多代理并行推理。根据 The Rundown AI，Muse Spark 在 Humanity's Last Exam（无工具）得分 50.2，超过 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9；在 FrontierScience Research 得分 38.3，接近 Gemini Deep Think 的两倍（23.3）。据 The Rundown AI，Meta 亦公布其劣势：ARC AGI 2 为 42.5（低于 Gemini 的 76.5），Terminal-Bench 2.0 为 59.0（低于 GPT 的 75.1）。据 The Rundown AI，模型在健康推理方面表现突出，契合 Meta“个人超智能”战略；该模型在重构 AI 技术栈后 9 个月完成，凭借每日 35 亿用户的分发潜力，有望迅速推动助手与代理工作流的应用落地与商业化。原文链接
2026-03-29 19:21	SlopCodeBench重磅分析：威斯康星大学与MIT揭示AI编程基准失真—11款模型、93个检查点却零端到端解题据God of Prompt在X平台报道，威斯康星大学与MIT发布SlopCodeBench，证实以通过率为核心的编码基准无法识别迭代开发中的结构性退化；在包含Claude Opus 4.6与GPT 5.4的11款模型上，零模型完成端到端解题，且89.8%的轨迹中冗长度上升（据该贴文）。据该线程介绍，基准包含20道题与93个检查点，模型必须在自身代码基础上按更新规格扩展，实现测试通过但复杂度与重复样板累积；代理代码侵蚀度为0.68，而人类仓库为0.31，代理冗长度0.32而人类为0.11，成本从首到末检查点增加2.9倍但正确率未提升，最高严格解题率仅17.2%（据该贴文）。该报道还称，对GPT 5.4的“反Slop”提示可使初始冗长度下降34.5%，但退化斜率不变，表明本质是架构与局部最优驱动，提示企业应采用度量可维护性、可扩展性与全生命周期成本的新型基准以评估AI编程助手的商业价值。原文链接
2026-03-12 05:26	OpenClaw 2026.3.11 重磅更新：OpenRouter 免费百万上下文、GPT 5.4 不中断、Gemini Embedding 2 记忆增强、Go 支持与安全加固据 @openclaw 在 X 上发布的信息，OpenClaw 2026.3.11 推出 Hunter 与 Healer Alpha，并通过 OpenRouter 提供免费百万令牌上下文模型，适合超长文本检索与RAG场景（据 OpenClaw GitHub 发布说明）。据 OpenClaw，版本集成 Gemini Embedding 2，用于长期记忆与向量检索，提升召回与相关性。另据该项目公告，GPT 5.4 经过调优，解决中途停顿的问题，降低代理循环与代码生成截断风险。根据其 GitHub 说明，OpenCode 新增 Go 语言支持，覆盖自动补全、重构与测试生成；同时开展安全加固冲刺，包括依赖锁定、密钥扫描与沙箱收紧，提升模型工具链安全。对企业而言，据 OpenClaw，这些更新可降低长上下文成本、提高检索精度并加速多语言开发流程，利于构建具备持久记忆的智能体与长文档分析应用。原文链接
2026-03-07 02:34	LLM长篇创作难题解析：GPT 5.4 Pro、Claude、Gemini 3.1 Pro在10段推理小说基准上的失败与启示据Ethan Mollick在Twitter披露，这一“10段推理小说”难题暴露主流LLM在规划、线索埋设与叙事一致性上的缺陷：Claude遗漏关键线索、ChatGPT 5.4 Pro线索过于直白且文风堆砌、Gemini 3.1 Pro对“冰”线索的因果解释失败（来源：Ethan Mollick，Twitter）。Mollick指出，前五段需埋下可被推理出的证据但对大多数读者仍足够隐蔽，此要求对多步叙事规划与约束跟踪形成强压（来源：Ethan Mollick，Twitter）。对企业而言，这提示在长文案、合规情境故事、教育案例与互动叙事等场景存在质量与风险控制难点，需引入结构化大纲锁定、剧情图工具与事后验证链以降低幻觉与“缺线索”失误（来源：Ethan Mollick，Twitter）。原文链接

2026-04-08
16:36

Meta 发布 Muse Spark：原生多模态与并行推理的突破—权威跑分与商业影响深度分析

据 The Rundown AI 报道，Meta 推出其超智能实验室（由 Alexandr Wang 领导）的首款模型 Muse Spark，具备原生多模态、工具调用、可视化思维链及“沉思模式”，可编排多代理并行推理。根据 The Rundown AI，Muse Spark 在 Humanity's Last Exam（无工具）得分 50.2，超过 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9；在 FrontierScience Research 得分 38.3，接近 Gemini Deep Think 的两倍（23.3）。据 The Rundown AI，Meta 亦公布其劣势：ARC AGI 2 为 42.5（低于 Gemini 的 76.5），Terminal-Bench 2.0 为 59.0（低于 GPT 的 75.1）。据 The Rundown AI，模型在健康推理方面表现突出，契合 Meta“个人超智能”战略；该模型在重构 AI 技术栈后 9 个月完成，凭借每日 35 亿用户的分发潜力，有望迅速推动助手与代理工作流的应用落地与商业化。

原文链接

2026-03-29
19:21

SlopCodeBench重磅分析：威斯康星大学与MIT揭示AI编程基准失真—11款模型、93个检查点却零端到端解题

据God of Prompt在X平台报道，威斯康星大学与MIT发布SlopCodeBench，证实以通过率为核心的编码基准无法识别迭代开发中的结构性退化；在包含Claude Opus 4.6与GPT 5.4的11款模型上，零模型完成端到端解题，且89.8%的轨迹中冗长度上升（据该贴文）。据该线程介绍，基准包含20道题与93个检查点，模型必须在自身代码基础上按更新规格扩展，实现测试通过但复杂度与重复样板累积；代理代码侵蚀度为0.68，而人类仓库为0.31，代理冗长度0.32而人类为0.11，成本从首到末检查点增加2.9倍但正确率未提升，最高严格解题率仅17.2%（据该贴文）。该报道还称，对GPT 5.4的“反Slop”提示可使初始冗长度下降34.5%，但退化斜率不变，表明本质是架构与局部最优驱动，提示企业应采用度量可维护性、可扩展性与全生命周期成本的新型基准以评估AI编程助手的商业价值。

原文链接

2026-03-12
05:26

OpenClaw 2026.3.11 重磅更新：OpenRouter 免费百万上下文、GPT 5.4 不中断、Gemini Embedding 2 记忆增强、Go 支持与安全加固

据 @openclaw 在 X 上发布的信息，OpenClaw 2026.3.11 推出 Hunter 与 Healer Alpha，并通过 OpenRouter 提供免费百万令牌上下文模型，适合超长文本检索与RAG场景（据 OpenClaw GitHub 发布说明）。据 OpenClaw，版本集成 Gemini Embedding 2，用于长期记忆与向量检索，提升召回与相关性。另据该项目公告，GPT 5.4 经过调优，解决中途停顿的问题，降低代理循环与代码生成截断风险。根据其 GitHub 说明，OpenCode 新增 Go 语言支持，覆盖自动补全、重构与测试生成；同时开展安全加固冲刺，包括依赖锁定、密钥扫描与沙箱收紧，提升模型工具链安全。对企业而言，据 OpenClaw，这些更新可降低长上下文成本、提高检索精度并加速多语言开发流程，利于构建具备持久记忆的智能体与长文档分析应用。

原文链接

2026-03-07
02:34

LLM长篇创作难题解析：GPT 5.4 Pro、Claude、Gemini 3.1 Pro在10段推理小说基准上的失败与启示

据Ethan Mollick在Twitter披露，这一“10段推理小说”难题暴露主流LLM在规划、线索埋设与叙事一致性上的缺陷：Claude遗漏关键线索、ChatGPT 5.4 Pro线索过于直白且文风堆砌、Gemini 3.1 Pro对“冰”线索的因果解释失败（来源：Ethan Mollick，Twitter）。Mollick指出，前五段需埋下可被推理出的证据但对大多数读者仍足够隐蔽，此要求对多步叙事规划与约束跟踪形成强压（来源：Ethan Mollick，Twitter）。对企业而言，这提示在长文案、合规情境故事、教育案例与互动叙事等场景存在质量与风险控制难点，需引入结构化大纲锁定、剧情图工具与事后验证链以降低幻觉与“缺线索”失误（来源：Ethan Mollick，Twitter）。

原文链接

AI 快讯列表关于 GPT 5.4